Decodificación Bellman-Taylor para MDP con acciones estado-dependientes La decodificación Bellman-Taylor optimiza políticas en MDP con acciones estado-dependientes, superando RL tradicional. Resultados óptimos en control de colas. 2026-06-10 · 2 min